<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>倒排索引 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/inverted-index.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/inverted-index.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/inverted-index.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/inverted-index.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="getting-started.html">基础入门</a></span>
»
<span class="breadcrumb-link"><a href="mapping-analysis.html">映射和分析</a></span>
»
<span class="breadcrumb-node">倒排索引</span>
</div>
<div class="navheader">
<span class="prev">
<a href="_exact_values_versus_full_text.html">« 精确值 VS 全文</a>
</span>
<span class="next">
<a href="analysis-intro.html">分析与分析器 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="inverted-index"></a>倒排索引<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/052_Mapping_Analysis/35_Inverted_index.asciidoc">edit</a>
</h2>
</div></div></div>
<p>Elasticsearch 使用一种称为  <em>倒排索引</em> 的结构，它适用于快速的全文搜索。一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表。</p>
<p>例如，假设我们有两个文档，每个文档的 <code class="literal">content</code> 域包含如下内容：</p>
<div class="olist orderedlist">
<ol class="orderedlist">
<li class="listitem">
The quick brown fox jumped over the lazy dog
</li>
<li class="listitem">
Quick brown foxes leap over lazy dogs in summer
</li>
</ol>
</div>
<p>为了创建倒排索引，我们首先将每个文档的 <code class="literal">content</code> 域拆分成单独的  词（我们称它为 <code class="literal">词条</code> 或 <code class="literal">tokens</code> ），创建一个包含所有不重复词条的排序列表，然后列出每个词条出现在哪个文档。结果如下所示：</p>
<pre class="literallayout">Term      Doc_1  Doc_2
-------------------------
Quick   |       |  X
The     |   X   |
brown   |   X   |  X
dog     |   X   |
dogs    |       |  X
fox     |   X   |
foxes   |       |  X
in      |       |  X
jumped  |   X   |
lazy    |   X   |  X
leap    |       |  X
over    |   X   |  X
quick   |   X   |
summer  |       |  X
the     |   X   |
------------------------</pre>

<p>现在，如果我们想搜索 <code class="literal">quick brown</code> ，我们只需要查找包含每个词条的文档：</p>
<pre class="literallayout">Term      Doc_1  Doc_2
-------------------------
brown   |   X   |  X
quick   |   X   |
------------------------
Total   |   2   |  1</pre>

<p>两个文档都匹配，但是第一个文档比第二个匹配度更高。如果我们使用仅计算匹配词条数量的简单 <em>相似性算法</em>  ，那么，我们可以说，对于我们查询的相关性来讲，第一个文档比第二个文档更佳。</p>
<p>但是，我们目前的倒排索引有一些问题：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
<code class="literal">Quick</code> 和 <code class="literal">quick</code> 以独立的词条出现，然而用户可能认为它们是相同的词。
</li>
<li class="listitem">
<code class="literal">fox</code> 和 <code class="literal">foxes</code> 非常相似, 就像 <code class="literal">dog</code> 和 <code class="literal">dogs</code> ；他们有相同的词根。
</li>
<li class="listitem">
<code class="literal">jumped</code> 和 <code class="literal">leap</code>, 尽管没有相同的词根，但他们的意思很相近。他们是同义词。
</li>
</ul>
</div>
<p>使用前面的索引搜索 <code class="literal">+Quick +fox</code> 不会得到任何匹配文档。（记住，<code class="literal">+</code> 前缀表明这个词必须存在。）只有同时出现 <code class="literal">Quick</code> 和 <code class="literal">fox</code> 的文档才满足这个查询条件，但是第一个文档包含 <code class="literal">quick fox</code> ，第二个文档包含 <code class="literal">Quick foxes</code> 。</p>
<p>我们的用户可以合理的期望两个文档与查询匹配。我们可以做的更好。</p>
<p>如果我们将词条规范为标准模式，那么我们可以找到与用户搜索的词条不完全一致，但具有足够相关性的文档。例如：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
<code class="literal">Quick</code> 可以小写化为 <code class="literal">quick</code> 。
</li>
<li class="listitem">
<code class="literal">foxes</code> 可以 <em>词干提取</em> --变为词根的格式-- 为 <code class="literal">fox</code> 。类似的， <code class="literal">dogs</code> 可以为提取为 <code class="literal">dog</code> 。
</li>
<li class="listitem">
<code class="literal">jumped</code> 和 <code class="literal">leap</code> 是同义词，可以索引为相同的单词 <code class="literal">jump</code> 。
</li>
</ul>
</div>
<p>现在索引看上去像这样：</p>
<pre class="literallayout">Term      Doc_1  Doc_2
-------------------------
brown   |   X   |  X
dog     |   X   |  X
fox     |   X   |  X
in      |       |  X
jump    |   X   |  X
lazy    |   X   |  X
over    |   X   |  X
quick   |   X   |  X
summer  |       |  X
the     |   X   |  X
------------------------</pre>

<p>这还远远不够。我们搜索 <code class="literal">+Quick +fox</code> <em>仍然</em> 会失败，因为在我们的索引中，已经没有 <code class="literal">Quick</code> 了。但是，如果我们对搜索的字符串使用与 <code class="literal">content</code> 域相同的标准化规则，会变成查询 <code class="literal">+quick +fox</code> ，这样两个文档都会匹配！</p>
<div class="note admon">
<div class="icon"></div>
<div class="admon_content">
<p>这非常重要。你只能搜索在索引中出现的词条，所以索引文本和查询字符串必须标准化为相同的格式。</p>
</div>
</div>
<p>分词和标准化的过程称为 <em>分析</em> ， 我们会在下个章节讨论。 </p>
</div>
<div class="navfooter">
<span class="prev">
<a href="_exact_values_versus_full_text.html">« 精确值 VS 全文</a>
</span>
<span class="next">
<a href="analysis-intro.html">分析与分析器 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>